其他
K8S节点异常怎么办?TKE"节点健康检查和自愈"来帮忙
节点健康检测
意义
Node-Problem-Detector
TKE中的节点健康检测
kubectl describe node
会发现多出了很多Node Condition,如FDPressure表示该节点上已经使用的文件描述符数量是否已经达到机器允许最大值的80%;ThreadPressure表示节点上的线程数是否已经达到机器允许的90%等等。用户可以监控这些Condition,当异常状态出现时,提前采取规避策略。节点自愈
在同一时刻只允许集群中的一个节点进行自愈行为,并且两个自愈行为之间至少间隔1分钟 当有新节点添加到集群中时,会给节点2分钟的容忍时间,防止由于节点刚刚添加到集群的不稳定性导致错误自愈 当节点触发重启CVM自愈动作后还处于异常状态时,则在3小时之内此节点不再执行任何自愈动作
使用指南
登录腾讯云容器服务控制台,点击想要创建NPDPlus的集群。 点击集群详情页左侧的组件管理,在组件管理中选中NodeProblemDetectorPlus(节点异常检测Plus)。 配置NodeProblemDetectorPlus参数,可以选择根据特定节点的状态执行不同的自愈动作。 选择确定,点击完成即可一键创建。 在集群的组建管理中查看到NPDPlus运行中说明NPDPlus运行成功: 快快点击【阅读原文】
直达控制台开启NPDPlus体验之旅吧